将基于机器学习的卡片生成重新定义为过滤问题，有助于我们思考吗？

原文：Can ML-based prompt generation be helpfully recast as a filtering problem? (andymatuschak.org)

当我开始专注使用机器学习模型来生成高质量的间隔重复卡片，我认为这个问题主要在于如何让系统产生我想要的输出。但在体验过一些模型后，我注意到模型通常有能力产生足够接近我想要结果，但前提是我愿意生成并评估足够多的样本。这一过程的问题在于生成满意答案需要生成的样本数量过于庞大……但不是一个博尔赫斯数*。显然，任何足够复杂的模型都包含所有的句子；这不是在说我想要的卡片就在集合中，而是在说我可能会丢弃掉近乎所有的样本。（*译注：博尔赫斯数是一个虚构的数学概念，源于阿根廷作家豪尔赫·路易斯·博尔赫斯的作品《百科全书》。其中博尔赫斯数是一个极其巨大的数字，其大小超出人类理解和表达的范围。它被用来描述一个无限的、包含了所有可能的排列组合的图书馆或书库，其中每本书都是一本独特的书，包含了所有可能的组合）

生成卡片的问题，跟让模型生成可接受的输出的问题完全不一样。或许可以开发一些过滤器，筛选模型的输出，以找出我们需要的问题。此外，我们也可以开发一个界面来适应这个筛选问题。

什么是「不合理」的问题？我发现这些问题并不是胡言乱语，而是非常规矩的问题，也都能说得通。但这些问题中读不出对文章的有趣理解。这种「有趣」有主观因素——有些人对人物时间事件等具体细节感兴趣，有人对关键定义感兴趣，而有人对大局影响感兴趣。但我想知道的是这种有趣是否能客观评价。

比如，假设我们围绕一篇关于跑步者的文章生成问题，文章里有句话是「他绑紧了他的鞋带」，而如果有个问题是「他跑步前绑紧了什么？」，那么这个问题可以在客观上认为是低质量的，其中一个因素是当代故事里的其他跑步者都会这么干（也就是说，这条信息是低熵的）。另一个更为微妙的因素是，这个细节对这个故事并不重要。跑步者的鞋子是无关紧要的；文章之后也没有提起。我觉得量化第一个因素是可行的，但我不确定如何量化第二个因素。有个笨想法：如果你移除文章的某处细节，文章的自编码向量会移动多少？我们能在这里使用模型的熵吗？

参考文献

我在 2021年 9 月 6 日与 Yuval Milo 的电话会谈里意识到了这点。

Thoughts Memo 翻译合集

将基于机器学习的卡片生成重新定义为过滤问题，有助于我们思考吗？

参考文献